home *** CD-ROM | disk | FTP | other *** search
/ The Pier Shareware 3 / The Pier Shareware Number 3 (The Pier Exchange) (1993).iso / 032 / digest_.exe / pak / README.TXT < prev    next >
Text File  |  1993-06-27  |  7KB  |  221 lines

  1. DIGEST
  2.  
  3.                                Version 1.0
  4.  
  5.                                    by
  6.  
  7.                              Ramin C. Nakisa
  8.  
  9. Usage
  10. ~~~~~
  11. DIGEST [sequence filename]
  12.  
  13. Example
  14. ~~~~~~~
  15. To cut the sequence contained in the file myseq.dna,
  16.  
  17. C:\>digest
  18.  
  19.              DIGEST of what sequence ?  myseq.dna
  20.  
  21.       SEQUENCE
  22.       ~~~~~~~~
  23.    ID     :  myseq
  24.    Length :  5207
  25.    Format :  GCG
  26.  
  27.                Begin ( * 1 * ):
  28.                End ( * 5207 * ):
  29.  
  30.  
  31. Number of enzymes: 357 
  32.  
  33.  * to select all enzymes.
  34.  individual names like AluI to select specific enzymes.
  35.  ? to see this message.
  36.  ?? to see the available enzymes AND their recognition sites.
  37.  /* to see what enzymes you have selected so far.
  38.  # to start cutting!
  39.  
  40. Enzyme: bsri
  41.  
  42. BsrI FOUND!!!
  43.  
  44. Enzyme: #
  45.  
  46.    What should I call the output file ? frags.txt
  47.  
  48. Digesting...
  49. ▓▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
  50.  
  51. C:\>type frags.txt
  52.  
  53.  
  54. What Does it Do?
  55. ~~~~~~~~~~~~~~~~
  56. DIGEST scans DNA sequence files for restriction sites.  It prompts the
  57. user to specify which enzymes to cut with, and if they are in the enzyme
  58. database file WISCONSI.920 it writes out the positions of all the cuts
  59. and sorts the fragments by size.  It uses Don Gilbert's spankingly good
  60. sequence reading module (UREADSEQ) so it can understand most of the
  61. major sequence formats, namely
  62.  
  63.          1. IG/Stanford           10. Olsen (in-only)
  64.          2. GenBank/GB            11. Phylip3.2
  65.          3. NBRF                  12. Phylip
  66.          4. EMBL                  13. Plain/Raw
  67.          5. GCG                   14. PIR/CODATA
  68.          6. DNAStrider            15. MSF
  69.          7. Fitch                 16. ASN.1
  70.          8. Pearson/Fasta         17. PAUP
  71.          9. Zuker                 18. Pretty (out-only)
  72.  
  73. The program has been written to resemble the GCG MAPSORT program as
  74. closely as possible, both in terms of user input and program output. 
  75. I thought this would make the program more user-friendly for molecular
  76. biologists who have probably been weaned on GCG.
  77. Output files look like
  78.  
  79.  
  80.  (Linear) DIGEST of:      myseq.dna  from: 1  to: 5207
  81.  
  82.  
  83. BsrI ACTG_Gn'
  84.  
  85. Cuts at:      0     130    1434    1447    1555    1961    2079    2122    2395
  86.    Size:        130    1304      13     108     406     118      43     273
  87.  
  88. Cuts at:   2395    2561    3020    3114    3460    3669    4446    5207
  89.    Size:        166     459      94     346     209     777     761
  90.  
  91.   Fragments arranged by size:
  92.  
  93.             
  94.                 1304     777     761     459     406     346     273     209
  95.                  166     130     118     108      94      43      13
  96.       
  97.  
  98.  Enzymes that do cut:
  99.  
  100. AciI     ApaLI    BsrI     SphI     
  101.  
  102.  Enzymes that do not cut:
  103.  
  104. NruI     
  105.  
  106.  
  107. How to Modify WISCONSI.920
  108. ~~~~~~~~~~~~~~~~~~~~~~~~~~
  109. If you are looking for a particular DNA motif, or have just discovered a
  110. new restriction enzyme in a bug from a volcanic spring (or a New England
  111. Biolabs catalogue) then adding a site to the database file is REALLY
  112. easy.  Just remember to use a text editor, or if using a WP remember to
  113. export the file in ASCII format.  Here's what an entry looks like:
  114.  
  115. EarI       7 CTCTTCn'nnn_   3 !  Eam1104I,Ksp632I                  >NU
  116.  
  117. Each enzyme is on a separate line.  The individual fields are
  118.  
  119. i)    Enzyme (or motif) name.
  120. ii)   Cut offset from first base of recognition site.
  121. iii)  Overhang length.
  122. iv)   An obligatory exclamation mark.
  123. v)    Isoschizomers.
  124. vi)   An obligatory greater than sign.
  125. vii)  A list of commercial sources for the enzyme.
  126.  
  127. DIGEST ignores everything past the exclamation mark, so you can skip
  128. that bit if you like.  The program understands the IUPAC codes for base
  129. pair ambiguity
  130.  
  131.  
  132.           Symbol   Meaning
  133.           ------   -------
  134.             A       Adenine
  135.             G       Guanine
  136.             C       Cytosine
  137.             T       Thymine
  138.             U       Uracil
  139.             Y       pYrimidine  (C or T)
  140.             R       puRine      (A or G)
  141.             W       "Weak"      (A or T)
  142.             S       "Strong"    (C or G)
  143.             K       "Keto"      (T or G)
  144.             M       aMino       (C or A)
  145.             B       not A       (C or G or T)
  146.             D       not C       (A or G or T)
  147.             H       not G       (A or C or T)
  148.             V       not T       (A or C or G)
  149.             N       unknown     (A or C or G or T)
  150.  
  151.  
  152. Grovelling Credits Section
  153. ~~~~~~~~~~~~~~~~~~~~~~~~~~
  154. As new restriction enzymes are discovered the WISCONSI.920 database will
  155. become out of date.  You may then like to ftp a new version from one of
  156. the molbio server sites.  Rich Roberts keeps the information in many
  157. formats, so make sure the one you get is of the GCG variety, as
  158. described above.  The version of the database distributed with this
  159. version of DIGEST is 9206 (May 29 1992).
  160.  
  161. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
  162.      + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 
  163.                Dr. Richard J. Roberts Restriction Enzyme Database
  164.                 Copyright (c) Cold Spring Harbor Laboratory 1992
  165.                               All rights reserved.
  166.      + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + 
  167. + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
  168.  
  169.  
  170. I think Dan Gilbert is a marvellous man.  UREADSEQ is FAB.
  171.  
  172. In case you ever read this, Dan, next time you're in London drop in to
  173. Imperial and I'll buy you a pint of Old Rosie at the Phoenix and Firkin.
  174. Here is the header from UREADSEQ.C:
  175.  
  176.  * ReadSeq  -- 30 Dec 92
  177.  *
  178.  * Reads and writes nucleic/protein sequences in various
  179.  * formats. Data files may have multiple sequences.
  180.  *
  181.  * Copyright 1990 by d.g.gilbert
  182.  * biology dept., indiana university, bloomington, in 47405
  183.  * e-mail: gilbertd@bio.indiana.edu
  184.  *
  185.  * This program may be freely copied and used by anyone.
  186.  * Developers are encourged to incorporate parts in their
  187.  * programs, rather than devise their own private sequence
  188.  * format.
  189.  *
  190.  * This should compile and run with any ANSI C compiler.
  191.  * Please advise me of any bugs, additions or corrections.
  192.  
  193.  
  194. Desperate Plea for Recognition
  195. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  196. If you enjoyed using DIGEST, please DON'T SEND ME ANY MONEY!
  197.  
  198.  
  199. I don't want money.
  200.  
  201.       If I did I wouldn't have started a PhD.  
  202.  
  203.             I want PRAISE! RECOGNITION! FAME! PRAISE (again)!
  204.  
  205.  
  206. Please send your flattering minutiae, ego boosters, gripes and suggested
  207. improvements by EMAIL to
  208.  
  209. ramin@ic.ac.uk  ................  for Internet people
  210.  
  211. Alternatively, SNAILMAIL:
  212.  
  213. Ramin Nakisa,
  214. Biophysics Section,
  215. The Blackett Laboratory,
  216. Imperial College of Science, Technology and Medicine,
  217. Prince Consort Road,
  218. London SW7 2BZ
  219. Great Britain.     Tel: 071 589-5111 x 6729      FAX: 071 589-0191
  220.  
  221.